Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction, but the main LM benchmarks are non-interactive, where a system produces output without human intervention. To evaluate human-LM interaction, we develop a framework, Human-AI Language-based Interaction Evaluation (H-LINE), that expands non-interactive evaluation along three dimensions, capturing (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality. We then design five tasks ranging from goal-oriented to open-ended to capture different forms of interaction. On four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we find that non-interactive performance does not always result in better human-LM interaction and that first-person and third-party metrics can diverge, suggesting the importance of examining the nuances of human-LM interaction.
translated by 谷歌翻译
Modern multi-agent reinforcement learning frameworks rely on centralized training and reward shaping to perform well. However, centralized training and dense rewards are not readily available in the real world. Current multi-agent algorithms struggle to learn in the alternative setup of decentralized training or sparse rewards. To address these issues, we propose a self-supervised intrinsic reward ELIGN - expectation alignment - inspired by the self-organization principle in Zoology. Similar to how animals collaborate in a decentralized manner with those in their vicinity, agents trained with expectation alignment learn behaviors that match their neighbors' expectations. This allows the agents to learn collaborative behaviors without any external reward or centralized training. We demonstrate the efficacy of our approach across 6 tasks in the multi-agent particle and the complex Google Research football environments, comparing ELIGN to sparse and curiosity-based intrinsic rewards. When the number of agents increases, ELIGN scales well in all multi-agent tasks except for one where agents have different capabilities. We show that agent coordination improves through expectation alignment because agents learn to divide tasks amongst themselves, break coordination symmetries, and confuse adversaries. These results identify tasks where expectation alignment is a more useful strategy than curiosity-driven exploration for multi-agent coordination, enabling agents to do zero-shot coordination.
translated by 谷歌翻译
在动态系统中利用对称性是改善深度学习概括的强大方法。该模型学会对转换是不变的,因此对于分配转移更为强大。数据增强和模棱两可的网络是将对称性注入学习的两种主要方法。但是,它们在改善概括中的确切作用尚不清楚。在这项工作中,我们得出了数据增强和模棱两可网络的概括范围,以表征它们在统一框架中学习的影响。与大多数先前的I.I.D.不同的理论不同设置,我们专注于具有复杂时间依赖性的非平稳动力学预测。
translated by 谷歌翻译
将对称性作为归纳偏置纳入神经网络体系结构已导致动态建模的概括,数据效率和身体一致性的提高。诸如CNN或e夫神经网络之类的方法使用重量绑定来强制执行对称性,例如偏移不变性或旋转率。但是,尽管物理定律遵守了许多对称性,但实际动力学数据很少符合严格的数学对称性,这是由于嘈杂或不完整的数据或基础动力学系统中的对称性破坏特征。我们探索近似模棱两可的网络,这些网络偏向于保存对称性,但并非严格限制这样做。通过放松的均衡约束,我们发现我们的模型可以胜过两个基线,而在模拟的湍流域和现实世界中的多流射流流中都没有对称性偏差和基线,并且具有过度严格的对称性。
translated by 谷歌翻译
现有域适应(DA)算法训练目标模型,然后使用目标模型对目标数据集中的所有样本进行分类。虽然这种方法试图解决源和目标数据来自不同分布的问题,但它无法认识到目标域内的可能性,某些样本比目标域更接近源域的分布领域。在本文中,我们开发了一种新颖的DA算法,即强制转移,该算法涉及这种情况。解决这一难题的一个直接但有效的想法是,使用分布外检测算法来决定在测试阶段,给定样品是否更接近源域,目标域或两者都不接近。在第一种情况下,该样本将提供给对源样本培训的机器学习分类器。在第二种情况下,该样本将提供给对目标样本训练的机器学习分类器。在第三种情况下,该样本被丢弃,因为既不是在源训练的ML模型,也不是在目标上训练的ML模型不适合对其进行分类。众所周知,神经网络中的前几个层提取了低级特征,因此可以从三种不同情况下对样品进行分类,以在三种不同情况下经验确定的层后进行样品的激活分类。强制转移实现了这个想法。在三种类型的DA任务上,我们优于与之相比的最新算法。
translated by 谷歌翻译
互联网连接系统的指数增长产生了许多挑战,例如频谱短缺问题,需要有效的频谱共享(SS)解决方案。复杂和动态的SS系统可以接触不同的潜在安全性和隐私问题,需要保护机制是自适应,可靠和可扩展的。基于机器学习(ML)的方法经常提议解决这些问题。在本文中,我们对最近的基于ML的SS方法,最关键的安全问题和相应的防御机制提供了全面的调查。特别是,我们详细说明了用于提高SS通信系统的性能的最先进的方法,包括基于ML基于ML的基于的数据库辅助SS网络,ML基于基于的数据库辅助SS网络,包括基于ML的数据库辅助的SS网络,基于ML的LTE-U网络,基于ML的环境反向散射网络和其他基于ML的SS解决方案。我们还从物理层和基于ML算法的相应防御策略的安全问题,包括主要用户仿真(PUE)攻击,频谱感测数据伪造(SSDF)攻击,干扰攻击,窃听攻击和隐私问题。最后,还给出了对ML基于ML的开放挑战的广泛讨论。这种全面的审查旨在为探索新出现的ML的潜力提供越来越复杂的SS及其安全问题,提供基础和促进未来的研究。
translated by 谷歌翻译
现有的等分性神经网络需要先前了解对称组和连续组的离散化。我们建议使用Lie代数(无限发电机)而不是谎言群体。我们的模型,Lie代数卷积网络(L-Chir)可以自动发现对称性,并不需要该组的离散化。我们展示L-CONC可以作为构建任何组的建筑块,以构建任何组的馈电架构。CNN和图表卷积网络都可以用适当的组表示为L-DIV。我们发现L-CONC和物理学之间的直接连接:(1)组不变损失概括场理论(2)欧拉拉格朗法令方程测量鲁棒性,(3)稳定性导致保护法和挪威尔特。这些连接开辟了新的途径用于设计更多普遍等级的网络并将其应用于物理科学中的重要问题
translated by 谷歌翻译
AI正在经历范式转变,随着模型的兴起(例如Bert,Dall-E,GPT-3),这些模型经过大规模的数据训练,并且可以适应广泛的下游任务。我们称这些模型基础模型来强调其至关重要但不完整的特征。该报告提供了基础模型的机会和风险的详尽说明,包括其功能(例如语言,愿景,机器人技术,推理,人类互动)和技术原则(例如,模型架构,培训程序,数据,系统,安全,安全性,评估,理论)对其应用(例如法律,医疗保健,教育)和社会影响(例如不平等,滥用,经济和环境影响,法律和道德考虑)。尽管基础模型基于标准的深度学习和转移学习,但它们的规模导致了新的新兴能力,以及它们在许多任务中的有效性都激发了同质化。同质化提供了强大的杠杆作用,但要求谨慎,因为基础模型的缺陷均由下游的所有适应模型继承。尽管即将广泛地部署基础模型,但我们目前对它们的工作方式,失败以及由于其新兴属性的影响而缺乏清晰的了解。为了解决这些问题,我们认为基础模型的许多批判性研究都需要与他们的基本社会技术性质相称。
translated by 谷歌翻译
当前的深度学习模型预测与概括的斗争。它们只能在特定域中预测,并且当应用于具有不同参数,外部力或边界条件的系统时失败。我们提出了一种基于模型的元学习方法,称为dyad,可以通过将它们划分为不同的任务,从而在异质域进行概括。 Dyad有两个部分:一个编码器,可在弱监督下渗透任务的时间不变的隐藏功能,并且一个预报员可以学习整个域的共享动力学。编码器使用自适应实例归一化和自适应填充在推理过程中适应并控制预报器。从理论上讲,我们证明了此类过程的概括误差与源域中的任务相关性以及源和目标之间的域差异有关。在实验上,我们证明了我们的模型在湍流和现实海洋数据预测任务上都优于最先进的方法。
translated by 谷歌翻译
Logic Mill is a scalable and openly accessible software system that identifies semantically similar documents within either one domain-specific corpus or multi-domain corpora. It uses advanced Natural Language Processing (NLP) techniques to generate numerical representations of documents. Currently it leverages a large pre-trained language model to generate these document representations. The system focuses on scientific publications and patent documents and contains more than 200 million documents. It is easily accessible via a simple Application Programming Interface (API) or via a web interface. Moreover, it is continuously being updated and can be extended to text corpora from other domains. We see this system as a general-purpose tool for future research applications in the social sciences and other domains.
translated by 谷歌翻译